番外篇III：博弈论的现实意义&有奖征集模型程序

Original 吴昊SaaS SaaS白夜行 2022-03-19

作者介绍 - 吴昊，SaaS创业顾问，纷享销客天使投资人、前执行总裁，8年SaaS营销团队创新+13年企业信息化经验。目前在为SaaS公司提供战略咨询，重点是市场、销售、服务团队的规模化。

“博弈”无处不在，小到一局象棋，大到同行企业之间的竞争、国家之间的合纵连横。对应的英文就是Game，可想而知有多常见。

十几年来我很喜欢研究“博弈论”，今年在中欧工商学院的《管理经济学》又系统学了一遍相关知识，最近把“得到App”精英日课的“博弈论15讲”也听了一遍，今天就为大家结合商业实务聊一聊。

一、单次博弈

大家最耳熟能详的就是“囚徒困境”了。大意是，两个合谋犯罪嫌疑人（A和B）被逮捕，警方证据只够判轻罪，决定分别审讯：如果两个都不认罪，都判轻罪1年；如果都认罪，都重判5年；如果A不认罪B认罪，A“抗拒从严”判8年，B作为污点证人立即释放（反之亦然）。

从总体利益上来讲，“都不认罪”是最佳策略（合计判2年）；可实际上，A和B都陷于“囚徒困境”—— 都不相信对方能忍受“坦白立即释放”的诱惑，所以都只能都“认罪”，从而产生总体最坏的结果：都认罪（合计判10年）。

类似的，还有“公地悲剧”—— 在小区门口有一块漂亮的公用草坪，每个人的最优策略都是享用草地而不付出精力保护，很快草坪变得破破烂烂，最终谁也无法享用，全都是loser。

在咱们SaaS行业里也经常看到这样的状况，为了抢夺一个客户，同行们每次遭遇战都报低价，目的是即便我不赚钱，也不让你拿到客户。更麻烦的是，SaaS厂家都觉得自己的新客户第一年不挣钱不要紧，反正还有续费。

可实际情况是，竞争激烈，为了鼓励销售，一次收了3年钱；

实际情况是，收到费用太低，实施和服务跟不上，客户压根没用起来；

实际情况是，这客户根本不会续费！

长期如此，厂商都不挣钱，VC的钱烧完了还见不到利润，显然也是一种“囚徒困境”。

那么，如何避免这样的“悲剧”呢？

我先讲讲我亲身经历的故事。十几年前我在华为软件“战略与Marketing”部门时，负责一个BMT（1000多人）的软件合作。我们运作了一段时间后发现，软件采购与硬件采购非常不同。硬件交付的是“产品”，抽检合格后集成到设备里保证高概率不会出问题。而软件公司提供的不仅仅是“产品”，还有大量实施和售后支持服务。如果价格压地太低，华为团队与供应商团队一起到客户端交付时就会有一堆问题，最终影响全局。

后来我们软件合作部门就决定，供应商认证和议标过程中，加大从“长名单”进入“短名单”的供应商认证门槛，提高“技术”部分的影响，降低“商务”（价格）部分的影响。以此保障客户端的交付质量。

这是什么？这是经历了“多次博弈”后的成熟表现。

二、多次重复博弈

上面的例子说明，多次重复博弈的情况下，“囚徒困境”是可以改变的。

当然我不是推荐搞什么价格同盟，实际商业中，3方及以上的价格同盟很难形成和稳固，而且这还是有违国家反垄断法的。

事实上，经过2、3年博弈后，竞争各方都会越来越理性，设法在产品定位上找到差异点，在营销过程中强调差异，在定价上保障收益率。这也是新生市场与成熟市场的差别——竞争者和客户（例如上面说的华为软件）都会更加理性。

说回博弈论，有一个非常有趣的多轮博弈模型，它证明在大部分多轮博弈过程中，“以牙还牙”策略是最优的。

举个例子，有100人参加一个Game，轮次无限，每一轮都是每个参赛者与另外99个参赛者逐一“博弈”。如果A遇到B，A出“合作”，B“不合作”，则A得“0分”，B得“5分”；如果双方都合作，则各得3分；如果双方都“不合作”，则各得1分。

我们称一直出“合作”牌的为“傻子”；称一直“不合作”的为“骗子“，除此之外，还有很多别的策略，例如“随机出合作和不合作”等。其中一个被证明最有效的是“以牙还牙”策略。

“以牙还牙”策略是这样：不管对谁，第一轮我都选择合作；第一轮后我就复制对手上一轮的做法（他上次出“合作”，我这次也合作；他上次出“不合作”，我这次也不合作）。

据《精英日课》万维钢老师讲，1980年代密西根大学的Robert Axelrod教授组织了一场博弈竞赛。

我在网上查了更多资料：第一轮，研究博弈论的经济学家和数学家等提交了14个程序（策略），其中包括很多复杂的策略。200轮重复博弈后，“以牙还牙”这个简单的策略胜出。

通报结果后，第二轮他又征集了62个策略。这次重复博弈的次数是随机的，出乎意料的，仍然是“以牙还牙”这个非常简洁的策略胜出了。

所以说，“以牙还牙”策略是简单、粗暴但非常有效的策略。“简单”这一点也非常有价值：你有一个好策略很重要，让对方知道你在执行什么策略也非常重要。

具体到现实世界，因为对方有可能出错牌（或对你的善意信号发生误解），如果双方都是“以牙还牙”策略，则可能陷入互相报复的死循环。因此，“以牙还牙”策略还有一个变种：连续被欺骗2次，下一次开始才会“不合作”（2报还1报）。

三、无限重复博弈策略的后果

这样重复博弈后，各种策略的人会得到什么样的结果呢？

经过经济学家们的模拟，结果很有意思。

《自私的基因》也用大篇幅谈到博弈论和Axelrod教授的“第三轮”博弈实验。第三轮实验的变化是，每一轮结束后，赢家不再得到分数，而是与其完全相同策略的“后代”。这样多轮之后，有的策略逐渐数目稀少，而有的策略则数目众多。1000代后，种群不再变化，稳定的状态已经形成。

大家可以想象，“傻子”多的环境下，“骗子”可以活地很好；但骗子数量越来越多、傻子越来越少时，骗子就活不下去了，骗子的数量也会减少。如果这中间还有很多“以牙还牙”者，骗子就会更难。当然，如果是“2报还1报”的改进型以牙还牙，骗子还是有一些空间。

我们把策略分为两种，“恶意”（设法通过欺骗获得更大利益）和“善意”（希望通过合作获得更大利益）。

总体来说，无论是通过数学逻辑推导，还是Axelrod教授的三场计算机模拟，甚至是《自私的基因》中的一些生物学实证，都可以发现，“善意”和“宽容”是更长期有效的竞争策略。这里的“宽容”是指允许对方偶然犯错。

这也让人类对未来有了更多的信心。

逆向思维一下，也正是因为这些造物主制定的大规则，才让我们智人能够走到今天。

四、5000元现金征集模型程序

我对Axelrod教授的第三轮实验非常感兴趣。相信30年后的今天，用PC重复这个实验难度不大。可惜我已经有10年没写过代码了，亲手写确实太难，如果有谁写好了我根据研究需要做做做微调还行

在此我有奖征集博弈论实验的计算机模型程序，要求如下：

1、每轮中，每个1对1博弈得分规则如下：如果A遇到B，A出“合作”，B“不合作”，则A得“0分”，B得“5分”；如果双方都合作，则各得3分；如果双方都“不合作”，则各得1分。（以上分数可作为参数调整）

2、初期有100策略实体参加博弈，其中分5种角色：①“傻子”（每次都合作）；②“骗子”（每次都不合作）；③“以牙还牙（1报还1报）”；④“改进型以牙还牙（2报还1报）”（参考上文）；⑤针对改进型以牙还牙的骗子（循环：合作1次后不合作2次）。每个角色的初始数量都为20个，可以作为参数修改。

3、从第10轮开始：每轮得分垫底的1%（本轮实体总数量）实体被淘汰，得分前10%的实体被复制一份同样策略的实体。

4、博弈轮次为1000轮，可作为参数调整。

5、通过WPS的VBA（Visual Basic for Application)开发，每轮各个实体间的的对抗结果、每轮各个策略的实体数量，都用表格形式展示出来。

开发及测试完成后，请在公众号“SaaS白夜行”后留下联系微信号并发送VBA程序源代码。（源代码所有权归开发者，但授权吴昊@SaaS使用和修改）。

我将会在前5个提交的程序中（按留下微信号和程序的时间顺序），挑选①计算准确（必要因素） ②展现效果清晰（权重70%） ③程序思路及注释清楚（权重30%）的综合第一名奖励现金5000元。如前5个提交的程序均不达标，我会按顺序查看后面提交的程序。

相关知识及信息请参考本文及《自私的基因》第12章“好人终有好报”。

交稿截止日期：5月3日24点。

VBA是非常简单和常见的开发语言，你身边有不少工程师朋友都懂，欢迎大家帮我转发本文，我特别想把这个模型建立起来

相关文章：

SaaS创业路线图（九）怎样的竞争策略最聪明？

一把短刀，怎么就让他连捅18人？！

听纪委朋友说，有的领导干部在被抽掉鞋带和皮带后，一下就崩溃了，甚至个别胆小者顿时大小便失禁……

上海超市血案：背后缘由让人揪心

为啥一线城市只有广州取消限购？是因为穷吗

野村：牛市可能重蹈2015年的崩盘

番外篇III：博弈论的现实意义&有奖征集模型程序

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

听纪委朋友说，有的领导干部在被抽掉鞋带和皮带后，一下就崩溃了，甚至个别胆小者顿时大小便失禁……

上海超市血案：背后缘由让人揪心

为啥一线城市只有广州取消限购？是因为穷吗

野村：牛市可能重蹈2015年的崩盘

生成图片，分享到微信朋友圈

番外篇III：博弈论的现实意义&有奖征集模型程序

您可能也对以下帖子感兴趣